El COVID-19 ha tenido un gran impacto alrededor del mundo y hoy en dia es fácilmente el tema del que más se habla. Todos los países han tomado medidas con respecto a esta pandemia, sin embargo unos las han tomado muy tarde y esto se ha visto afectado en la expansión del virus en ellos. En Perú, las medidas se empezaron a tomar rápidamente, pero una cantidad considerable de la población no ha cumplido con las inmovilizaciones sociales y esto se ha visto reflejado en la expansión del virus en el país. ¿Cómo podemos saber cuáles han sido las medidas más respetadas y por qué? La respuesta a esta pregunta le sería de mucha ayuda al gobierno peruano, ya que con esta información se podría saber que tipo de medidas debería tomar y en qué momentos para que se cumplan de manera satisfactoria. Es por ello que nuestro grupo ha decidido investigar acerca de la efectividad de las medidas tomadas y su relación con la movilización social de los ciudadanos.
Este trabajo es factible, debido a que la mayor parte de la información la podemos conseguir de gráficos ya existentes con relación al COVID-19 en Perú y la información faltante la podemos adquirir a través de encuestas. Además, los efectos de las medidas tomadas por el gobierno en la movilización social ya se pueden analizar, debido a que su información se obtiene solamente días después de implementarlas. Finalmente, esta investigación se puede llevar a cabo en el tiempo dado, debido a que no es un trabajo que requiera tiempo de espera para llegar a concretarse. Esto quiere decir que lo podemos empezar inmediatamente.
La importancia de este estudio estadístico radica en el análisis de algunas de las medidas que el gobierno ha declarado ante la coyuntura del Covid-19. Es importante estudiar su efecto en la movilización social, puesto que podría otorgar un panorama más holístico y verídico sobre las medidas que generan un impacto positivo en la desaceleración de la propagación del nuevo virus Sars-CoV-2.
La población de interés son los ciudadanos peruanos. Para lograr que nuestras unidades muestrales sean los más representativa posible, hemos decidido delimitar nuestra población objetivo al área de Lima. Esto se debe a que nuestros encuestados se encuentran en esta zona y la mayor cantidad de población se encuentra aquí.
Tipo de muestreo
El tipo de muestreo es aleatorio simple estratificado para ciudadanos con edades entre 18-50 años. Ello, dado que todos los individuos de subconjunto de la población objetivo tienen la misma probabilidad de ser seleccionados.
\[n = Z^2p(1-p)/e^2\]
Como no hay todavía datos para obtener el valor real de p, se asume p = 0.5. Con ello, se obtiene un tamaño de muestra de por lo menos 91 personas para ser significativo.
Existen varias fuentes de la que es posible extraer la información necesaria para responder las preguntas.
Nota: Todas se encuentran citadas en bibliografía.
La información contenida en estas direcciones son originales, además de confiables, dado que se presenta cada medida con su respectivo decreto legislativo. Asimismo, los datos estadísticos cuentan con sustento de fuentes oficiales.
Con respecto al uso de los datos obtenidos de fuentes, tenemos claro cómo utilizar cada uno de ellos. La fuente de la que adquirimos la información respecto a las medidas tomadas nos es de mucha ayuda, ya que junto a ellas están las fechas en las que se llevaron a cabo. Esto nos permite analizar la población antes y después de que se implementarán estas medidas.
Las fuentes de las que adquirimos las gráficas de inmovilización social también nos son de gran ayuda porque nos permiten relacionar las fechas en las que se llevaron a cabo las medidas gubernamentales con el flujo de gente en las calles. Esta relación es muy importante, ya que nos permitirá analizar la efectividad de los decretos y nos ayudará a lograr nuestros objetivos. El procesamiento de la data obtenida en las fuentes es muy importante, debido a que por sí solas nos muestran información “cruda” que todo el mundo ya conoce. Al procesar esta data y relacionarla con otra/s, la investigación se vuelve más interesante, ya que las relaciones entre diferentes estadísticas son posiblemente desconocidas y le brindan información mucho más útil al lector.
| N° | Pregunta | Tipo |
|---|---|---|
| 1 | ¿Qué edad tienen los miembros de la muestra? | Descriptiva |
| 2 | ¿De qué género son? | Descriptiva |
| 3 | ¿Cuánto es su ingreso promedio? | Descriptiva |
| 4 | ¿En qué distrito vives? | Descriptiva |
| 5 | ¿Cuál fue el último nivel educativo que completaste? | Descriptiva |
| 6 | ¿Su tipo de empleo es formal o informal? | Descriptiva |
| 7 | ¿Qué tan frecuentemente salía de casa previamente al comienzo de la cuarentena? | Descriptiva |
| 8 | ¿Qué tanto consideras que tu distrito se ha visto afectado por la enfermedad? | Descriptiva |
| 9 | ¿Por qué razones salías durante la cuarentena? | Descriptiva |
| 10 | ¿Consideras que esta medida “c/u de las medidas” fue efectiva para reducir el número de contagios en tu distrito? | Descriptiva |
| 11 | ¿Qué condiciones crees que aceleran la propagación del Covid en tu distrito? | Descriptiva |
| 12 | ¿Qué condiciones crees que retardan la propagación del Covid en tu distrito? | Descriptiva |
| 13 | ¿Qué medidas gubernamentales son las que recuerdas que se hayan tomado? | Descriptiva |
| N° | Pregunta | Tipo |
|---|---|---|
| 14 | ¿Qué tanto varían las cifras de nuevos infectados durante los periodos de instauración previos-posteriores a la medida? | Descriptiva |
| 15 | ¿Cuáles eran las razones por las que la población salía durante la cuarentena? | Descriptiva |
| 16 | ¿Cuáles han sido las medidas que han tenido mayor impacto en la población? | Descriptiva |
| 17 | Existe una misma tendencia de poblaciones afectadas por el Covid 19 durante las medidas de aislamiento? | Exploratoria |
| 18 | ¿Las medidas en los distritos más exclusivos presentan una mayor o menor efectividad? | Exploratoria |
| 19 | ¿La entrega de mayores subsidios monetarios resultaría en un importante beneficio para la disminución del número de salidas? | Inferencial |
| 20 | ¿Es posible predecir cuántas horas en promedio una persona salía de casa conociendo su nivel de ingresos y el distrito de residencia? | Predictiva |
| 21 | ¿Es posible predecir su nivel de ingresos conociendo únicamente su tipo de empleo? | Predictiva |
| 22 | ¿Qué factores determinan que la propagación del Covid 19 se desacelere? | Causal |
| 23 | ¿Cómo ciertas condiciones determinan que la propagación del COVID se acelere / retarde? | Mecanística |
| Variable | Relación con pregunta |
|---|---|
| Edad | 1 |
| Género | 2 |
| Clase social | 3,17,18,20,21 |
| Nivel educativo alcanzado | 5,17,18 |
| Tipo de trabajo | 6,18,21 |
| Frecuencia de salida | 7,18,19 |
| Lugar donde vive (distrito) | 4,17,18,20 |
| Cantidad de infectados por dia | 14,19 |
| Justificacion de salida | 9,15 |
| Medidas aplicadas | 10,16,17,18,19 |
| Factores | 22,23 |
Cantidad de personas que se movilizan en las calles antes y después de cada una de las medidas, Tiempo, Medidas aplicadas:
Media (valor): permitirá conocer en promedio cuántos ciudadanos limeños se movilizan antes y después de la medida
Mediana, cuartiles (valor): permitirá saber cuántos ciudadanos limeños se movilizan al 25%, 50%; 75%, 100% del tiempo de estudio, de esta manera se conocerá el efecto de la movilización con el transcurso del tiempo para cada medida.
Desviación estándar: permitirá saber cuántas son las variaciones promedio de movilización social respecto a la media
Media(valor): permitirá conocer cuánto es la tasa infectados que hubo en promedio antes y después de medida aplicada
Mediana, cuartiles (valor): permitirá saber cuántos infectados hubo al 25%, 50%;75%, 100% del tiempo de estudio, de esta manera se conocerá el efecto del número de infectados con el transcurso del tiempo para cada medida.
Desviación estándar: permitirá saber cuántas son las variaciones promedio de infectados respecto a la media.
Mediana, cuartiles (valor): permitirá saber cuántas salidas a la semana representa 25%,50%,75% de los ciudadanos de Lima encuestados para cada medida
Moda (valor): permitirá saber la frecuencia de salida mayoritaria de los ciudadanos de Lima encuestados
Variable dicotomizada Tipo de trabajo=0,1
Coeficiente de correlación biserial: indicará cuán relacionado está el tipo de trabajo con la frecuencia de salida
Media: permitirá conocer la edad promedio para cada frecuencia de salida promedio y para cada medida
Coeficiente de correlación biserial: indicará cuán relacionado está la edad con la frecuencia de salida
Gráfica de dispersión para notar fácilmente como aumenta o decrece la cantidad de infectados e infectados por dia antes y después de que se aplique la medida. Además, la gráfica de dispersión nos puede ayudar a encontrar una relación y/o patrón entre la cantidad de infectados y/o movilización social y los días transcurridos desde que se empleó cada medida.
También utilizaremos un gráfico de caja de bigotes para diferenciar las edades de los entrevistados de manera rápida y efectiva. Esto nos permitirá ver la relación entre las edades y respuestas dadas por las personas.
Además, se utilizarán gráficos de barras principalmente para visualizar y analizar las respuestas cualitativas. Con los gráficos de barras se podrán ver cuales han sido las respuestas cualitativas respondidas con más y menos frecuencia.
Finalmente, se usarán histograma para describir las variables cuantitativas que pueden ser distribuidas en rangos. Esto nos facilitará analizar los datos con muchos valores o respuestas posibles.
# curl -Ls "$url" > df_form.csv
tmp <- tempfile()
curl_download("https://docs.google.com/spreadsheets/d/e/2PACX-1vS5FwsKHl4PhukIHfSGbfA8NCQ5SqBDpQ16KC69JCiFAWVeJ40BACp0dqhBTkHi9cpLE_JmEmIvfdvA/pub?gid=637100843&single=true&output=csv", tmp)
read_csv(tmp) -> df_form1
Parsed with column specification:
cols(
.default = col_character(),
`¿Cuál es tu edad?` = col_double(),
`¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?` = col_double()
)
See spec(...) for full column specifications.
# Segunda encuesta
tmp <- tempfile()
curl_download("https://docs.google.com/spreadsheets/d/e/2PACX-1vS5FwsKHl4PhukIHfSGbfA8NCQ5SqBDpQ16KC69JCiFAWVeJ40BACp0dqhBTkHi9cpLE_JmEmIvfdvA/pub?gid=637100843&single=true&output=csv", tmp)
read_csv(tmp) %>%
rename(
tiempo = "Marca temporal",
edad = "¿Cuál es tu edad?",
genero = "¿De qué género eres?",
ingreso = "¿Cuánto es el ingreso mensual promedio de tu familia aproximadamente (soles) ?",
distrito = "¿En qué distrito vives?",
estudio = "¿Cuál fue el último nivel educativo que completaste?",
empleo = "¿Cuál es tu tipo de empleo?",
salidas = "¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?",
razones = "¿Por qué razones salías durante la cuarentena?",
social.bool = "¿La medida de \"Inmovilización social\", realmente hizo que tus salidas durante toda la cuarentena fueran muy pocas?",
social.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?",
ocio.bool = "¿ La \"Suspensión de acceso a lugares públicos: lugares de ocio, restaurantes, etc\", te desanimó salir de casa?",
ocio.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?",
noday.bool = "¿La medida \"Disposición salida de hombres y mujeres en días complementarios (lunes-miércoles-viernes / martes-jueves-sábados)\", garantizo que salieras menos que antes?",
noday.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?",
multa.bool = "¿ La medida \"Multa de S/.86 -S/.340 para todas las personas que desobedecen disposiciones del gobierno\", hizo que tus salidas de casa fueran menores?",
multa.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?",
bono.bool = "¿ La medida \"Entrega de bono S/. 380, S/.760 de acuerdo al Sistema de Focalización de Hogares (SISFOH) \", permitió que redujeras tus salidas de casa?",
bono.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?",
afp1.bool = "¿ La medida \"Retiro de hasta S/. 2000 de fondos AFP de trabajadores afiliados que no tienen planilla\", te mantuvo más tiempo en casa?",
afp1.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?",
afp2.bool = "¿ La medida \"Retiro del 25% de fondos AFP para trabajadores afiliados\", te mantuvo más tiempo en casa?",
afp2.05 = "Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?",
decceleration = "¿Qué condiciones crees que existen en tu distrito que retardan la propagación del Covid?",
acceleration = "¿Qué condiciones crees que existen en tu distrito que aceleran la propagación del Covid?"
) %>%
mutate(
genero = as.factor(genero),
ingreso = as.factor(ingreso),
distrito = as.factor(distrito),
estudio = factor(estudio, levels = c("Secundaria", "Técnica", "Universitaria", "Posgrado")),
empleo = factor(empleo, levels = c("No trabajo", "Informal", "Formal")),
# Esteban Nicolas Villacorta Garcia cambió las respuestas de la encuesta
# de "Mayor 5" a 6.
salidas_ = salidas,
salidas = replace(salidas, salidas=="6", "Mayor 5"),
salidas = factor(salidas, levels = c(0:5, "Mayor 5")),
razones = strsplit(razones, ", "),
social.bool = social.bool == "Sí" | social.bool == "Si",
ocio.bool = ocio.bool == "Sí" | ocio.bool == "Si",
noday.bool = noday.bool == "Sí" | noday.bool == "Si",
multa.bool = multa.bool == "Sí" | multa.bool == "Si",
bono.bool = bono.bool == "Sí" | bono.bool == "Si",
afp1.bool = afp1.bool == "Sí" | afp1.bool == "Si",
afp2.bool = afp2.bool == "Sí" | afp2.bool == "Si",
acceleration = strsplit(acceleration, ", "),
decceleration = strsplit(decceleration, ", ")
) -> df_form2
Parsed with column specification:
cols(
.default = col_character(),
`¿Cuál es tu edad?` = col_double(),
`¿Cuántas veces a la semana, en promedio, salías de casa durante los días de cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ En cuánto disminuyó tus salidas durante la cuarentena?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto te desanimó salir de casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto cambio tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuán menores fueron tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto se redujo tus salidas?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿ Cuán más te mantuviste en casa?` = col_double(),
`Respecto a la anterior pregunta. Del 0 al 5, ¿Cuánto tiempo más te mantuvo en casa?` = col_double()
)
See spec(...) for full column specifications.
df_form2
summary(df_form2$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
17.0 22.0 28.0 33.4 45.0 67.0
boxplot(df_form2$edad, xlab = "", ylab = "Edad", main=NULL)
title("Gráfico 1. Edad")
\[n = 310, sd = 12.619\]
Podemos así determinar el intervalo de confianza calculando:
\[desv/sqrt(n) = 12.619 /sqrt(310) =0.7167\]
\[Zt(α/2) = ± 1.96\]
\[U.Bound => 34.57 + 1.96 * 12.61/sqrt(n) = 35.97\] \[L.Bound => 34.57 - 1.96 * 12.619/sqrt(n) = 33.17\]
Se sabe por tanto que la media real se puede encontrar en [33.17, 35.99] con 95% de certeza.
df_form2 %>%
group_by(genero) %>%
summarise(n = n()) %>%
barplot(n~genero, data=., xlab="Personas", ylab="Cantidad")
title("Gráfico 2. Género")
par(mai = c(0.8, 1.5, 0.2, 0.5))
df_form2 %>%
group_by(ingreso) %>%
summarise(n = n()) %>%
barplot(n~ingreso, data=., horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title(ylab="Ingreso", line=6)
title("Gráfico 3. Ingresos")
par(mai = c(1, 2, 0.5, 0.5))
#plot(edad~distrito, data = df_form2, horizontal=TRUE, las=2, xlab="")
#title(ylab="Distrito", line=8)
df_form2$distrito %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 4. Distrito")
par(mai = c(1, 1.5, 0.5, 0.5))
df_form2$empleo %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 5. Tipo de trabajo")
Para esta primera pregunta se han procesado los datos web. Se presentarán dos gráficos por cada una de las cuatro medidas que se analizarán. El primero de ellos será de los nuevos casos y el segundo de la movilización recreacional (cambios en la movilización). Los descriptores que se están utilizando para describir mejor los datos obtenidos es la media y mediana. Es necesario destacar que se ha optado por graficar los datos diez días antes de que se decrete la medida y diez días después de haberse promulgado.
plot_new_cases("2020-03-05", "2020-03-25")
.
Para analizar esta gráfica, se asume que el crecimiento de la enfermedad bajo condiciones normales es exponencial. Por tanto, se puede construir un modelo tal que: ln(y) ~ At+B. Tomando a L1 como regresión de control sin variable independiente y L2 la regresión luego de aplicarse la medida, se realizó un F-test para comprobar si el modelo L1 modela a L2 sin diferencias significativas.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| 0 | 1.30103 | |
| — | ———- | —— |
| Mean | 0.779146 | 1.644595 |
| Variance | 0.158901 | 0.022317 |
| Observations | 9 | 8 |
| df | 8 | 7 |
| F | 7.120148 | |
| P (F <= f) one-tail | 0.008916 | |
| F crítico one-tail | 3.725725 | |
| — | ———- | —— |
Dado que la varianza 1 > varianza 2, la elección del orden de las variables es correcta. Por tanto, dado F > F crítico, se encuentra evidencia para falsear Ho. Dado α > P(F<=f) una cola, se rechaza la hipótesis nula, por lo que existen diferencias significativas. Comparando las pendientes A1=0.337 y A2=0.0729 con A2 <A1, se puede asumir que se frenó la expansión de la enfermedad.
plot_rmoves("2020-03-05", "2020-03-25")
.
A partir del gráfico 7, se logra visualizar que previo a la promulgación de la medida “Declaración de Estado de Emergencia”, la gente tenía mucha más movilización y luego de decretada, el cambio de movilización disminuyó en gran medida. El promedio y mediana (líneas continuas) antes de que se aplique esta medida es aproximadamente -3. Por otro lado, el promedio y mediana (líneas punteadas) desde el quince hasta el veinticinco está por debajo de -60.
Para comprobar la significancia de esta diferencia, se realizó un test-t de medias. Se asumieron las siguientes hipótesis:
| t - Test: Paired Two Sample for Means | ||
|---|---|---|
| 0 | -37 | |
| — | ———- | —— |
| Mean | 2.7875 | -73.125 |
| Variance | 18.06982 | 10.125 |
| Observations | 8 | 8 |
| Pearson Correlation | -0.09835 | |
| Hypothesized Mean Difference | 60 | |
| df (F <= f) one-tail | 7 | |
| t Stat | 8.102459 | |
| P(T <= t) one - tail | 4.2E-0.5 | |
| t Critical one - tail | 1.894579 | |
| P(T <= t) two - tail | 8.4E-0.5 | |
| t Critical two - tail | 2.364624 | |
| — | ———- | —— |
Dado que el valor |t| > t-crítico dos colas, se puede encontrar evidencia para rechazar la hipótesis nula Ho. Dado α =0.05 > P(T<=t) dos colas, existe significancia suficiente para ello. Por tanto, se rechaza Ho, existiendo por tanto diferencias significativas entre antes de ejecutarse la declaración de Estado de Emergencia y después sobre la movilización de las personas. Debido a que el coeficiente de correlación es menor a 0, se puede afirmar que el cambio además redujo la movilización.
Este gráfico nos muestra la cantidad de casos diez días antes y diez días después de que la medida “Aprobación del Padrón de Hogares” fuera aprobada. Esta es una gráfica muy importante, dado que tenía como objetivo ayudar a las poblaciones más vulnerables en condición de extrema pobreza a nivel nacional para que pudieran subsistir durante la cuarentena. Dicho en otras palabras, para que pudieran acceder a los servicios básicos y medicamentos, en caso fuesen requeridos. La cantidad de casos antes de que la medida fuese declarada, 08/03 hasta 18/03, va desde aproximadamente uno hasta veinte. No obstante, desde 18/03 hasta 28/03 la cantidad de casos va en aumento. Sin duda alguna, el objetivo era bueno, pero para el panorama que se estaba viviendo no fue efectiva. Una posible hipótesis sería la salida obligatoria de los beneficiarios a los bancos a formar largas colas durante horas. Esto explicaría el aumento de casos.
plot_new_cases("2020-03-08", "2020-03-28")
.
Se realizó un f-test sobre los inputs a la regresión lineal del logaritmo de la gráfica, siguiendo el modelo planteado arriba. Se colocó como control a todos los datos previos a declararse la medida. Se plantearon las siguientes hipótesis:
| F - Test Two - Sample for Variances | ||
|---|---|---|
| 0 | 3.27714 | |
| — | ———- | —— |
| Mean | 1.538879 | 3.218122 |
| Variance | 0.949329 | 0.148907 |
| Observations | 9 | 9 |
| df | 8 | 8 |
| F | 6-.375321 | |
| P (F <= f) one-tail | 0.008398 | |
| F crítico one-tail | 3.438101 | |
| — | ———- | —— |
Dado que la primera varianza es mayor a la segunda, el orden de operación de los datos es correcto. Como tal, dado F > F-critico una cola, encontramos evidencia en contra de Ho. Dado ademas P(F<=f) < α , se puede garantizar la decisión de rechazar la hipótesis nula, por lo que deben existir diferencias significativas entre los datos. Dado además A1= 0.2672 > A2=0.0116, se puede afirmar que la medida redujo la tasa de infección.
plot_rmoves("2020-03-08", "2020-03-28")
.
Esta gráfica, al igual que la Gráfica 7, manifiesta un comportamiento similar. Sin embargo, a partir de la disminución de la curva se podrían generar algunas conjeturas. La primera de ellas es que las personas tenían un respaldo para poder comprar sus alimentos y medicamentos de ser necesario por lo que ya no tenían que salir a las calles de manera concurrida a vender productos, entre otras cosas. Cabe resaltar que con esto no queremos decir que la población no salía y que la medida fue 100% efectiva. Al contrario, la población objetivo salió para hacer el retiro del subsidio por lo que el número de casos aumentó. Sin embargo, esto también contribuyó a que en días posteriores se queden en casa, debido a que contaban con dinero para subsistir por un par de semanas más (varía según el número de integrantes). Estas afirmaciones se respaldan con la media y mediana antes del decreto (líneas continuas), dado que se ubica en la parte superior del gráfico, mientras que la media y mediana (líneas punteadas) por debajo de -60.
Utilizando un test-t para medias en ambas secciones de la gráfica, podemos determinar si existe un efecto de la medida por sobre la trend general.
| t - Test: Paired Two Sample for Means | ||
|---|---|---|
| 2 | -69 | |
| — | ———- | —— |
| Mean | -16.8889 | -72.111 |
| Variance | 446.1111 | 1.861111 |
| Observations | 9 | 9 |
| Pearson Correlation | -0.73266 | |
| Hypothesized Mean Difference | 8 | |
| df | 8 | |
| t Stat | 6.398578 | |
| P(T <= t) one - tail | 0.000105 | |
| t Critical one - tail | 1.859548 | |
| P(T <= t) two - tail | 0.000209 | |
| t Critical two - tail | 2.306004 | |
| — | ———- | —— |
Dado que el estadístico |t| > t-crítico dos colas, se encuentra evidencia para falsear la hipótesis nula. Dado que P(T<=t) < α, la elección es justificable, por lo que se rechaza la hipótesis nula, concluyendo por tanto que existe una diferencia significativa entre ambas secciones de la gráfica. Debido a que la correlación es negativa, se concluye que la medida redujo
El gráfico 10 exhibe la cantidad de casos antes y después de aplicarse la medida “Salida alternada por género”. En un primer momento esta medida tenía como objetivo disminuir el número de contagios. Por tal razón, el Gobierno decretó determinados días de salida para mujeres y otros para varones, y los domingos nadie salía. No obstante, a partir de la representación se puede observar que el número de casos aumentó de aproximadamente cien a mil cien casos. Después de los reportajes vistos, podríamos tratar de explicar este comportamiento basándonos en lo siguiente: las mamás consideran que los varones (esposos) no saben hacer las compras de mercado. Algunos dirían que esto no tiene fundamento, pero analizando detalladamente los reportajes, pudimos reconocer que en los días de salida de mujeres había mucha más aglomeración y desorden, a diferencia de los días en que les tocaba salir a los varones.
plot_new_cases("2020-03-24", "2020-04-13")
.
Para comprobar estadísticamente si es que la medida fue efectiva o no, se realizó el test F sobre la forma logarítmica de la regresión. Debido a que la regresión no se centra en 0, se normalizaron los puntos previamente.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| 4.15888 | 6.71296 | |
| — | ———- | —— |
| Mean | 4.820939 | 6.666542 |
| Variance | 0.366808 | 0.140169 |
| Observations | 10 | 6 |
| df | 9 | 5 |
| F | 2.616901 | |
| P (F <= f) one-tail | 0.150944 | |
| F crítico one-tail | 4.772466 | |
| — | ———- | —— |
Dado que F < F-crítico una cola, no se puede falsear la hipótesis nula. Además, comoP(F<=f) una cola > 0.05, se decide mantener la hipótesis nula, considerando que no existen diferencias significativas. Con esto, se comprueba que la medida no tuvo éxito en reducir los nuevos casos.
plot_rmoves("2020-03-24", "2020-04-13")
.
Se puede observar un leve cambio en la posición de las medias de ambos datasets. Para comprobar la significancia de esta diferencia, se plantea un test-t. Asumiendo:
Ho: No se puede encontrar diferencias significativas entre las dos fases.
Ha: Existen diferencias significativas entre antes de declararse la medida y tras su ejecución.
| t - Test: Paired Two Sample for Means | ||
|---|---|---|
| -75 | -76 | |
| — | ———- | —— |
| Mean | -74.1111 | -85.3333 |
| Variance | 0.923611 | 69 |
| Observations | 9 | 9 |
| Pearson Correlation | -0.68635 | |
| Hypothesized Mean Difference | 8 | |
| df | 8 | |
| t Stat | 1.074858 | |
| P(T <= t) one - tail | 0.156892 | |
| t Critical one - tail | 1.859548 | |
| P(T <= t) two - tail | 0.313784 | |
| t Critical two - tail | 2.306004 | |
| — | ———- | —— |
Dado que |tStat| < t critico dos colas, no se puede encontrar evidencia que niegue Ho. Dado además que P(T<=t) > α, no se llega a rechazar la hipótesis nula, por lo que se asume que no existen diferencias significativas tras la medida.
A partir de este gráfico se puede observar una similitud en el comportamiento con todos los demás analizados hasta este punto. Si bien es cierto las tres medidas funcionan bien para disminuir la movilización, pero con el nivel de casos de Covid-19 sucede lo contrario, dado que estos aumentan de manera significativa. Es necesario destacar que hay fechas en las que disminuye y otras en las que aumenta. No obstante, un cambio notorio sucede a partir del 6 de abril, donde la movilización está por debajo de -90 aproximadamente. El cambio de movilización puede estar fundamentada porque parte de la población no salía el mismo día. Pero, si disminuyó la movilización ¿por qué aumentaron los casos? Para responder esta pregunta, nos basaremos en el gráfico anterior, donde objetamos que las madres no pueden dejar el control o confianza a sus esposos para que se encarguen de la dispensa. La mayoría optaba por salir a comprar un día hábil y la misma aglomeración, desorden y el no distanciamiento contribuye a la aceleración de la propagación del virus.
En el gráfico número 12 hay una observación muy poco evidente que se puede ver. Pocos días anteriores a la implementación de la medida en consideración, los nuevos casos empezaron a incrementar después de haberse mantenido relativamente constantes por un tiempo. El incremento de estos nuevos casos al parecer fue controlado por unos dias posteriores de ser tomada la medida. Sin embargo, en la gráfica se puede visualizar que aproximadamente una semana después de haberse tomado esta medida los casos empezaron a incrementar nuevamente.
plot_new_cases("2020-04-10", "2020-04-30")
.
Para comprobar la significancia de esta diferencia, se plantea un test-f. Asumiendo a los puntos ubicados antes de la aplicación de la medida como control:
Ho: No se puede encontrar diferencias significativas entre la fase de control y tras aplicar la medida.
Ha: Existen diferencias significativas entre antes de declararse la medida y tras su ejecución.
| F - Test Two - Sample for Variances | ||
|---|---|---|
| 0 | 0.68434 | |
| — | ———- | —— |
| Mean | 0.162215 | 0.865875 |
| Variance | 0.079739 | 0.076307 |
| Observations | 9 | 9 |
| df | 8 | 8 |
| F | 1.044967 | |
| P (F <= f) one-tail | 0.475961 | |
| F crítico one-tail | 3.438101 | |
| — | ———- | —— |
Dado F < F-crítico una cola, no se encuentra evidencia en contra de la hipótesis nula. Como P(F<=f)>0.05, no se rechaza Ho, asumiendo por tanto que no existen diferencias significativas en el ratio de aparición de nuevos casos.
plot_rmoves("2020-04-10", "2020-04-30")
.
En esta gráfica podemos ver que la medida de permiso de adquisición de bienes y servicios básicos no afectó de manera evidente la movilización social, ya que no se puede ver una reducción o incremento totalmente claro en los días posteriores a la implementación de esta medida. Se puede observar esto mediante un t-test. Asumiendo así:
Ho = No existe diferencia antes y después de aplicarse la medida
Ha = Existen diferencias significativas en la movilización entre el periodo previo a la declaración y el posterior.
| t - Test: Paired Two Sample for Means | ||
|---|---|---|
| -69 | -93 | |
| — | ———- | —— |
| Mean | -76.7381 | -78.9556 |
| Variance | 44.18367 | 58.21778 |
| Observations | 9 | 9 |
| Pooled | 51.20073 | |
| Hypothesized Mean Difference | 8 | |
| df | 8 | |
| t Stat | -1.7143 | |
| P(T <= t) one - tail | 0.052888 | |
| t Critical one - tail | 1.745884 | |
| P(T <= t) two - tail | 0.105775 | |
| t Critical two - tail | 2.119905 | |
| — | ———- | —— |
Dado que |t| < t-crítico, no se puede solventar la idea de rechazar la hipótesis directamente. Dado además que P(T<t) > α , no se llega a rechazar completamente Ho, por lo que se asume que no existen diferencias significativas.
df_form2$razones %>% unlist() %>% table() -> razones_t
wordcloud(names(razones_t), as.vector(razones_t), min.freq = 2)
title("Gráfico 14. Razones para salir durante la cuarentena")
El gráfico anterior manifiesta algunas de las razones que justifican las salidas de casa de la población encuestada durante la cuarentena. Es necesario destacar que esta gráfica se relaciona mucho con la gráfica 6,8,10 y 12, dado que explicaría de algún u otro modo el aumento de casos. La razón con mayor porcentaje es la comida, la que le continúa son los medicamentos y por último el trabajo.
df_form2 %>%
group_by(salidas) %>%
summarise(n=n()) %>%
barplot(n~salidas, data=., ylab = "Personas", xlab="Salidas")
title("Gráfico 15. Salidas por semana")
Este gráfico se relaciona mucho con el anterior, dado que exhibe las salidas por semana de la población muestra. La gráfica contiene un punto máximo en 2, además de otro máximo local en 5. La media y la mediana son 3.06 y 3 respectivamente, lo que provee un buen estimador de las salidas promedio de las personas encuestadas.
par(mai = c(1, 2.5, 0.5, 0.5))
(table(c(
rep("Inmovilización", length(which(df_form2$social.bool))),
rep("No acceso a lugares públicos", length(which(df_form2$ocio.bool))),
rep("Salida intercalada", length(which(df_form2$noday.bool))),
rep("Bono", length(which(df_form2$bono.bool))),
rep("Un monto del Afp", length(which(df_form2$afp1.bool))),
rep("Un porcentaje del Afp", length(which(df_form2$afp2.bool)))
))/length(df_form2$social.bool)) %>%
sort(TRUE) %>%
barplot(horiz = TRUE,
las = 1,
ylab = "",
xlab = "Aprobación"
)
title("Gráfico 16. Aprobación por medida (de 0 a 1)")
El gráfico 16 muestra el nivel de aprobación de las medidas que se están estudiando. No obstante, también se han incluido dentro del padrón de hogares el monto de AFP y un porcentaje del mismo. Con un nivel de aprobación mayor a 0.8, la población optó por la medida “Declaración de Estado de Emergencia”. Desde el punto de vista de la población la inmovilización contribuyó en mayor medida. El segundo lugar es para el no acceso a lugares públicos, es decir el permiso para la adquisición de bienes y servicios básicos. Luego, con una aprobación menor a 0.6 las salidas por género. Finalmente, la aprobación del Padrón de Hogares con una aprobación de 0.2 aproximadamente.
El gráfico 17 muestra la relación entre las variables clase social y distrito. Una parte de la población se distribuyó entre los distritos Barranco con 3000 a 4000 soles de ingresos mensuales, Santiago de Surco [6000-7000), Surquillo [7000-8000) y Villa María del Triunfo [5000-6000). No obstante, la mayor parte de la población se ubica en un nivel de ingreso entre 0 a 2000. En el gráfico 18 se muestra el número de casos por distrito. Estos resultados se pueden vincular directamente con los ingresos de la población. En el gráfico 17 analizamos los distritos que tienen una mayor distribución en un ingreso específico. Por ejemplo, en el gráfico 18. el distrito de Barranco tiene un número de casos menor a 2000 mil casos. Surquillo por su parte tiene aproximadamente 2100 casos. Más aún, Santiago de Surco 5000 casos y Villa María del Triunfo 5800 casos. A partir de ello podríamos establecer ciertos patrones. El primero de ellos sería que para las poblaciones de un estatus social solvente (ingresos mayores a 4000) y que este sea de un determinado distrito presentará un menor número de contagiados. Esto se cumple para Barranco, Surquillo y Santiago de Surco. No obstante, si nos dirigimos a analizar determinadas poblaciones donde el número de infectados es elevado y nos fijamos en el ingreso promedio podemos dar cuenta que la mayor parte oscila entre cero a mil soles mensuales. Basta para ilustrar, Comas, distrito que tiene un ingreso de cero a mil y cuyo número de casos asciende a casi 9000.
# No supe como hacerlo con vanilla R
ggplot(aes(y = distrito, x = ingreso), data = df_form2) +
geom_boxplot() +
ggtitle("Gráfico 17. Distritos vs ingresos") +
theme(plot.title = element_text(hjust = 0.5))
par(mai = c(1, 2.5, 1, 0.5))
df %>% filter(PROVINCIA == "LIMA") %>%
select(DISTRITO) %>%
table() %>%
sort(TRUE) %>%
barplot(las=1, horiz=TRUE, xlab="Casos")
title("Gráfico 18. Casos por distrito")
Las medidas presentan una mayor efectividad en el distrito de Barranco, dado que a diferencia de los demás, su número oscila en aproximadamente 900 casos. El mayor número de casos es en Santiago de Surco, con más de 4000 mil casos. Analizando, la gráfica 20, la cual relaciona empleo VS. Distrito se puede constatar que en Barranco existe mayor cantidad de gente con un empleo informal. Cabe señalar que también hay población que no trabaja. Por otro lado, en Santiago de Surco, San Isidro y San Borja existe una empleabilidad formal. Un patrón muy interesante es que los distritos que presentan una empleabilidad formal tiene una mayor cantidad de ingresos. Basta para ilustrar, Barranco tiene un ingreso de alrededor de 4000 soles con una empleabilidad informal, mientras que los tres restantes tienen un ingreso mayor a 8000 soles con un tipo de empleo formal.
par(mai = c(1, 2, 0.2, 0.5))
df %>% filter(PROVINCIA == "LIMA") %>%
filter(DISTRITO %in% c("MIRAFLORES",
"BARRANCO",
"SAN ISIDRO",
"SANTIAGO DE SURCO",
"SAN BORJA")
) -> infectados_5 # Es necesario luego
infectados_5 %>%
select(DISTRITO) %>%
table() %>%
sort(TRUE) %>%
barplot(las=1, horiz=TRUE, xlab="Casos")
title("Gráfico 19. Casos en algunos distritos")
df_form2 %>%
filter(distrito %in% c("Miraflores",
"Barranco",
"San Isidro",
"Santiago de Surco",
"San Borja")
) -> df_5
ggplot(aes(y = distrito, x = empleo), data = df_5) +
geom_boxplot() +
ggtitle("Gráfico 20. distritos vs tipo de empleo")
ggplot(aes(y = distrito, x = ingreso), data = df_5) +
geom_boxplot() +
ggtitle("Gráfico 21. distritos vs ingresos") # Aún no ha respondido nadie de Miraflores.
A partir del gráfico 22 se manifiesta que esta medida, para la población encuestada, no redujo las salidas. Esto respalda las hipótesis que suscitaron en la gráfica 8 y 9, las cuales exponían que aunque el objetivo del padrón de hogares era ayudar a las poblaciones más vulnerables para que puedan acceder a los servicios básicos, el mismo hecho de cobrar hacía que la salidas aumenten. Del mismo modo, la aglomeración resultaría en un aumento del número de contagiados, el cual se muestra claramente en la gráfica 8.
df_form2$bono.05 %>%
table() %>%
barplot(ylab="Personas")
title("Gráfico 22. Reducción de salidas (0 - 5)")
df_form2$social.05 %>%
table() %>%
barplot(ylab="Personas")
title("De 0 a 5, ¿Cúanto disminuyeron tus salidas durante la cuarentena?")
df_form2$ocio.05 %>%
table() %>%
barplot(ylab="Personas")
title("De 0 a 5, ¿Cúanto disminuyeron tus salidas durante la cuarentena?")
df_form2$noday.05 %>%
table() %>%
barplot(ylab="Personas")
title("Del 0 al 5, ¿Cuánto cambió tus salidas?")
Para esta pregunta, utilizaremos la gráfica 17 para tratar de darle respuesta. Como ya se analizó previamente, esta gráfica exhibe que tres de los cincos distritos exclusivos de Lima tienen un ingreso entre 3000 y 8000 soles. Sin embargo en distritos como Ate Vitarte, Cieneguilla, El Augustino, Independencia, Lurín, entre otros, el nivel de ingresos es desde 1000 a 2000 soles. En base a estos datos, podríamos predecir que las personas con mayores ingresos son las que menos horas salen de casa, mientras que las personas que no tienen una buena solvencia económica requerirían y se verían en la obligación de salir de casa para poder conseguir dinero, ya sea vendiendo productos de primera necesidad, ropa, accesorios, etc.
Después de realizar una investigación, se pudo encontrar que las personas con un empleo informal ganan en promedio S/. 715. La ministra de Trabajo, Sylvia Cáceres mencionó que en contraste con la población en el sector formal perciben un salario promedio de más de S/. 2000. Es necesario destacar que la variabilidad dependerá del tipo de trabajo. También la ministra mencionó que la brecha es de un 64%. Para el gráfico 18, una mayor población se encuentra trabajando en un sector formal, por lo que sus ingresos oscilarían entre S/.2000 a más. Por otro lado, el sector informal es el que menos población presenta, menor a quince personas aproximadamente. Esta población, según lo citado, tendrá un salario tres veces menor al del sector formal.
par(mai = c(1, 1.5, 0.5, 0.5))
df_form2$empleo %>%
table() %>%
sort(TRUE) %>%
barplot(horiz = TRUE, las = 2, xlab = "Personas", ylab="")
title("Gráfico 23. Tipo de trabajo")
df_form2$decceleration %>%
unlist() %>%
table() %>%
sort(TRUE) %>%
knitr::kable(col.names = c("Medida", "Personas que lo aprueban"))
| Medida | Personas que lo aprueban |
|---|---|
| Toque de queda | 204 |
| Aplicación de medidas preventivas sanitarias | 198 |
| Inmovilización | 192 |
| Que la mayoría de la movilización es por vehículos particulares por suerte | 15 |
df_form2$acceleration %>%
unlist() %>%
table() %>%
sort(TRUE) %>%
knitr::kable(col.names = c("Factor", "Personas que lo aprueban"))
| Factor | Personas que lo aprueban |
|---|---|
| Aglomeración de personas | 176 |
| Falta de educación | 167 |
| Informalidad | 164 |
| No acatar las medidas de prevención sanitaria | 144 |
| Desinformación | 93 |
| Sistema de salud | 89 |
| Fue una gestión adecuada en mi opinión | 17 |
| La alta densidad poblacional preexistente causa que no sirva de tanto el confinamiento ya que de todas maneras una casa en promedio alberga 10+ personas | 15 |
Pudimos notar que la curva de casos totales muestra un crecimiento continuo en el tiempo, evidenciándose un cambio no significativo entre antes y después de haber tomado cada medida.
En cuanto a los nuevos casos por día pudimos notar que todas las gráficas muestran una variación considerable en la cantidad de casos diarios pocos días después de que se aplicara cada medida. Estas variaciones se ven como datos atípicos en las gráficas.
En las gráficas de movilización social si se puede ver claramente el efecto de las medidas respectivas en ellas. El estado de emergencia hizo que la movilización social disminuyera en gran medida y la norma de salir días específicos de la semana también tuvo un impacto en la movilización ciertos días de la semana.
Asimismo, otro patrón encontrado es que para las poblaciones de un estatus social solvente (ingresos mayores a 4000) y este siendo de un determinado distrito presenta un menor número de contagiados. Esto se cumple para Barranco, Surquillo y Santiago de Surco. No obstante, si nos dirigimos a analizar determinadas poblaciones donde el número de infectados es elevado y nos fijamos en el ingreso promedio podemos dar cuenta que la mayor parte oscila entre cero a mil soles mensuales. Basta para ilustrar, Comas, distrito que tiene un ingreso de cero a mil y cuyo número de casos asciende a casi 9000.
Un patrón muy interesante es que los distritos que presentan una empleabilidad formal tiene una mayor cantidad de ingresos. Basta para ilustrar, Barranco tiene un ingreso de alrededor de 4000 soles con una empleabilidad informal, mientras que los tres restantes tienen un ingreso mayor a 8000 soles con un tipo de empleo formal.
| Variables cuantitativas | Rango | Media |
|---|---|---|
| Edad | [0,75] | 39.8 |
| Frecuencia de salida por semana | [0,5] | 2.5 |
Conocer los intervalos de confianza para la media de la edad, permite saber con una confianza del 95% qué tan cerca están las edades en promedio con el valor esperado de la distribución normal. Esto significa que el intervalo de edades en la muestra, entre 38-40 años representan el 95% de confianza para la media. Respecto a la frecuencia de salida, ya que el intervalo de confianza de la media es muy pequeño indica que durante cada una de las medidas aplicadas la mayoría de personas entrevistadas salieron 2 veces a la semana.
H1:Las personas con menores frecuencias de salida tienen mayores ingresos mensuales
Para determinar cúal hipótesis corresponde a la confianza y tolerancia que esperamos obtener, determinamos las personas que tienen un ingreso mayor a 2000 soles ya que representa un valor más alto que el promedio mensual en Lima.
summary(df_form2$edad)
Min. 1st Qu. Median Mean 3rd Qu. Max.
17.0 22.0 28.0 33.4 45.0 67.0
summary(df_form2$salidas_)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.000 2.000 2.492 3.000 6.000
#Prueba de hipotesis encuesta
df_form2 %>%
group_by(ingreso) %>%
summarise(mean = mean(salidas_, na.rm = TRUE)) %>%
summarise(mean = mean(mean)) %>%
as.numeric() -> promedio_total
t.test(df_form2$salidas_,mu=promedio_total,alternative = "greater",conf.level=0.95)
One Sample t-test
data: df_form2$salidas_
t = 3.9042, df = 359, p-value = 5.646e-05
alternative hypothesis: true mean is greater than 2.143469
95 percent confidence interval:
2.344591 Inf
sample estimates:
mean of x
2.491667
# Intervalos de confianza para la media de la variable Frecuencia_salida_por_Semana
n=360
yn=mean(df_form2$salidas_)
esn=sd(df_form2$salidas_)/sqrt(n)
alfa=0.05
parametro_estadistico=qnorm(alfa/2,lower.tail = FALSE)
lim_inferior=yn-parametro_estadistico*esn
lim_superior=yn+parametro_estadistico*esn
round(lim_superior,2)
[1] 2.67
round(lim_inferior,2)
[1] 2.32
round(parametro_estadistico*esn,2)
[1] 0.17
# Intervalos de confianza para la media de la variable edad
n=360
alfa=0.05
yn2=mean(df_form2$edad)
esn2=sd(df_form2$edad)/sqrt(n)
parametro_estadistico2=qnorm(alfa/2,lower.tail = FALSE)
lim_inferior=yn2-parametro_estadistico2*esn2
lim_superior=yn2+parametro_estadistico2*esn2
round(lim_superior,2)
[1] 34.77
round(lim_inferior,2)
[1] 32.03
round(parametro_estadistico2*esn2,2)
[1] 1.37
De acuerdo a lo calculado el p-value es mayor a la tolerancia de 0.05 especificada. Por lo que no se rechaza H0 , una mayor frecuencia de salida no es influenciada por tener un mayor ingreso promedio. Ello significa que existe una cantidad de personas razonable que pudo salir menos aún teniendo ingresos mensuales menores al promedio.
df_infec %>% rename(date = FECHA_RESULTADO) -> df_infec_tmp
df_mov %>%
group_by(date) %>%
summarise(mov = mean(grocery_and_pharmacy_percent_change_from_baseline, na.rm=TRUE)) ->
df_mov_tmp
df_case_mov <- merge(df_infec_tmp, df_mov_tmp)
plot(mov~N, data = df_case_mov, xlab="Nuevos casos", ylab="Movilización por víveres")
cases_mov_lm <- lm(mov~N, data = df_case_mov)
residuos <- rstandard(cases_mov_lm)
va <- fitted(cases_mov_lm)
abline(cases_mov_lm)
Al parecer los puntos de arriba a la izquierda representan los días anteriores a la cuarentena. La mancha de la izquierda a los días normales al inicio de la cuarentena. Finalmente, los puntos de abajo a la izquierda a los días domingos sin movilización.
summary(cases_mov_lm )
Call:
lm(formula = mov ~ N, data = df_case_mov)
Residuals:
Min 1Q Median 3Q Max
-45.880 -9.666 -2.555 11.874 62.840
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -4.974e+01 3.368e+00 -14.768 <2e-16 ***
N 8.875e-04 1.031e-03 0.861 0.391
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 23.07 on 136 degrees of freedom
Multiple R-squared: 0.00542, Adjusted R-squared: -0.001894
F-statistic: 0.7411 on 1 and 136 DF, p-value: 0.3908
plot(cases_mov_lm )
Para establecer si existe una relación entre ambas variables, se requiere de un indicador estadístico numérico.Dado que la variable tipo de trabajo es categórica nominal se dicotomiza en 0,1 y a partir de ello mediante un coeficiente de correlación biserial puntual se obtiene el grado de correlación de ambas variables.
df_trabajo<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,salidas,Variable_dicotomizada)%>%filter(salidas!="Mayor 5")
df_trabajo
H1: Existe correlación entre la frecuencia de salida y el tipo de trabajo.
\[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_trabajo_informal<-df_trabajo%>%filter(Variable_dicotomizada==0) # trabajadores informales
df_trabajo_formal<-df_trabajo%>%filter(Variable_dicotomizada==1) # trabajadores formales
X1barra<-mean(as.numeric(as.character(df_trabajo_formal$salidas))) #X1barra=promedio de la frecuencia de salida promedio de los trabajadores formales
Xbarra<-mean(as.numeric(as.character(df_trabajo$salidas)))# Xbarra=promedio de la frecuencia de salida promedio del total de personas encuestadas
SX<-sd(as.numeric(as.character(df_trabajo$salidas))) # SX=desv.estándar de la frecuencia de salida promeido del total de personas encuestadas
p=length(df_trabajo_formal$Variable_dicotomizada)/length(df_trabajo$Variable_dicotomizada) #p= proporción de trabajadores formales en la muestra
q=length(df_trabajo_informal$Variable_dicotomizada)/length(df_trabajo$Variable_dicotomizada) #q=proporción de trabajadores informales en la muestra
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q) # rbp=coeficiente de correlación biserial puntual
rbp
[1] -0.01890164
El coeficiente de correlación biserial puntual es muy bajo y negativo, la tendencia explica que es baja la correlación entre mayor frecuencia de salida promedio y un trabajo de tipo de informal.
df_inmovilizacion<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,social.05,Variable_dicotomizada)
df_inmovilizacion
H0: No existe correlación entre la disminución de frecuencia de salida y el tipo de trabajo.
H1: Existe correlación entre la disminución de frecuencia de salida y el tipo de trabajo.
Determinación del coeficiente de correlación biserial puntual
\[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_movilidad1<-df_inmovilizacion%>%filter(Variable_dicotomizada==0)
df_movilidad2<-df_inmovilizacion%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_movilidad2$social.05)))
Xbarra<-mean(as.numeric(as.character(df_inmovilizacion$social.05)))
SX<-sd(as.numeric(as.character(df_inmovilizacion$social.05)))
p=length(df_movilidad2$Variable_dicotomizada)/length(df_inmovilizacion$Variable_dicotomizada)
q=length(df_movilidad1$Variable_dicotomizada)/length(df_inmovilizacion$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] 0.07258622
El coeficiente para la medida de Inmovilización social indica una correlación muy baja entre las variables. Esto significa que mayores disminuciones en la frecuencia de salida se correlacionan muy bajo con las personas de trabajo formal.
df_retiro<-df_form2%>%group_by(empleo)%>%filter(empleo!="No trabajo")%>%mutate(Variable_dicotomizada = as.numeric(empleo == "Formal"))%>%select(empleo,afp1.05,Variable_dicotomizada)
df_retiro
H0: No existe correlación entre la disminución en la frecuencia de salida y el tipo de trabajo.
H1: Existe correlación entre la disminución en la frecuencia de salida y el tipo de trabajo.
Determinación del coeficiente de correlación biserial puntual \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_retiro1<-df_retiro%>%filter(Variable_dicotomizada==0)
df_retiro2<-df_retiro%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_retiro2$afp1.05)))
Xbarra<-mean(as.numeric(as.character(df_retiro$afp1.05)))
SX<-sd(as.numeric(as.character(df_retiro$afp1.05)))
p=length(df_retiro2$Variable_dicotomizada)/length(df_retiro$Variable_dicotomizada)
q=length(df_retiro1$Variable_dicotomizada)/length(df_retiro$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] -0.1667686
El coeficiente de correlación para la medida del retiro AFP es negativo y bajo. El signo negativo significa que el comportamiento positivo corresponde a los trabajadores informales. Por lo que mayores disminuciones de frecuencia de salida se correlacionan bajo con las personas de trabajo informal.
df_genero<-df_form2%>%group_by(genero)%>%mutate(Variable_dicotomizada = as.numeric(genero == "Masculino"))%>%select(genero,salidas,Variable_dicotomizada)%>%filter(salidas !="Mayor 5")
df_genero
H0: No existe una correlación entre frecuencia de salida a la semana y personas del género femenino.
H1: Existe una correlación entre frecuencia de salida a la semana y personas del género femenino.
Determinación del coeficiente de correlación biserial puntual \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_femenino<-df_genero%>%filter(Variable_dicotomizada==0)
df_masculino<-df_genero%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_masculino$salidas)))
Xbarra<-mean(as.numeric(as.character(df_genero$salidas)))
SX<-sd(as.numeric(as.character(df_genero$salidas)))
p=length(df_masculino$Variable_dicotomizada)/length(df_genero$Variable_dicotomizada)
q=length(df_femenino$Variable_dicotomizada)/length(df_genero$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q)
rbp
[1] -0.01567836
El coeficiente es negativo para las personas de género masculino, esto significa que la correlación es positiva para las personas de género femenino. Dado que el coeficiente es pequeño, mayores frecuencias de salida se correlacionan bajo con las personas de género femenino.
df_medida_genero<-df_form2%>%group_by(genero)%>%mutate(Variable_dicotomizada = as.numeric(genero == "Masculino"))%>%select(genero,noday.05,Variable_dicotomizada)
df_medida_genero
H0: No existe una correlación entre la disminución de frecuencia de salida a la semana y personas del género femenino.
H1: Existe una correlación entre la disminución de frecuencia de salida a la semana y personas del género femenino.
Determinación del coeficiente biserial: \[rbp=(X1barra-Xbarra)/SX*sqrt(p/q) \]
df_med_femenino<-df_medida_genero%>%filter(Variable_dicotomizada==0)
df_med_masculino<-df_medida_genero%>%filter(Variable_dicotomizada==1)
X1barra<-mean(as.numeric(as.character(df_med_masculino$noday.05)))
Xbarra<-mean(as.numeric(as.character(df_medida_genero$noday.05)))
SX<-sd(as.numeric(as.character(df_medida_genero$noday.05)))
p=length(df_med_masculino$Variable_dicotomizada)/length(df_medida_genero$Variable_dicotomizada)
q=length(df_med_femenino$Variable_dicotomizada)/length(df_medida_genero$Variable_dicotomizada)
rbp<-((X1barra-Xbarra)/SX)*sqrt(p/q) #p=informal/muestra , q=formal/muestra
rbp
[1] 0.0689382
El coeficiente es muy bajo por lo que existe una correlación muy baja entre mayores disminuciones de frecuencias de salida a la semana y personas de genero masculino.
El coeficiente es muy bajo por lo que existe una correlación muy baja entre mayores disminuciones de frecuencias de salida a la semana y personas con género masculino.
<<<<<<< HEAD
H0: No existe una correlación lineal entre la edad y la frecuencia de salida.
H1: Existe una correlación lineal entre la edad y la frecuencia de salida.
datos.f <-as.character(df_form2$salidas)
datos.n<-replace(datos.f,datos.f=="Mayor 5","6")
datos.n<-as.integer(datos.n)
edad_frec <- data.frame(df_form2$edad,datos.n)
edad_frec
plot(datos.n~df_form2.edad,data = edad_frec, xlab="edad", ylab="frecuencia de salida")
edad_frec_lm <- lm(datos.n~df_form2.edad, data =edad_frec )
abline(edad_frec_lm)
cor(x = df_form2$edad , y =(datos.n), method = "pearson")
[1] 0.01262241
El coeficiente en esta situación es muy bajo, por lo que no se puede detectar una relación entre las variables de edad y frecuencia de salida.
#Analisis de residuos
plot(edad_frec_lm)
summary(edad_frec_lm)
Call:
lm(formula = datos.n ~ df_form2.edad, data = edad_frec)
Residuals:
Min 1Q Median 3Q Max
-2.5345 -1.4733 -0.4749 0.5251 3.5331
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.437878 0.242263 10.063 <2e-16 ***
df_form2.edad 0.001610 0.006742 0.239 0.811
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.694 on 358 degrees of freedom
Multiple R-squared: 0.0001593, Adjusted R-squared: -0.002634
F-statistic: 0.05705 on 1 and 358 DF, p-value: 0.8114
H0: No existe correlación lineal entre ingresos mensuales y la frecuencia de salida a la semana.
H1: Existe correlación lineal entre ingresos mensuales y la frecuencia de salida a la semana.
#df_form2
(1000 * (as.numeric(df_form2$ingreso) - 1)) -> x
as.numeric(df_form2$salidas) - 1 -> y
ingresos_frec=lm(y~x)
plot(y~x, xlab="Ingresos mensuales", ylab="frecuencia de salida")
abline(ingresos_frec)
cor(x, y, method="pearson")
[1] -0.05150849
La tendencia muestra un leve decrecimiento en la frecuencia de salida al aumentar los ingresos. El coeficiente de correlación de pearson es negativo y bajo, por lo que solo existe, con una muy baja significancia, una correlaciÓn negativa de la frecuencia de salida respecto a los ingresos. Debido a que el v.absoluto del coeficiente es menor a 1 - , no se puede decidir la veracidad de esta tendencia.
summary(ingresos_frec)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-2.5616 -1.3255 -0.5026 0.5565 3.7041
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.562e+00 1.144e-01 22.388 <2e-16 ***
x -2.952e-05 3.025e-05 -0.976 0.33
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.692 on 358 degrees of freedom
Multiple R-squared: 0.002653, Adjusted R-squared: -0.0001328
F-statistic: 0.9523 on 1 and 358 DF, p-value: 0.3298
plot(ingresos_frec)